Objetivos de Aprendizagem
- Analise a intensidade aritmética e os limites do teto (roofline) da GEMM em Transformadores
- Identifique operações limitadas por memória versus limitadas por cálculo dentro dos blocos de transformadores
- Avalie estratégias de fusão de operadores para reduzir a sobrecarga de acesso à memória global
- Examine padrões de implementação para a fusão de camadas de ativação, normalização e atenção